import numpy as np
import pandas as pd
import warnings
import os

warnings.filterwarnings('ignore')
os.chdir('D:\\桌面\\数据')  # 原始工作路径

# 数据导入（原始路径保持不变）
train_LogInfo = pd.read_csv('D:\\桌面\\数据\\PPD_LogInfo_3_1_Training_Set.csv', encoding='gbk')
train_Master = pd.read_csv('D:\\桌面\\数据\\PPD_Training_Master_GBK_3_1_Training_Set.csv', encoding='gbk')
train_Userupdat = pd.read_csv('D:\\桌面\\数据\\PPD_Userupdate_Info_3_1_Training_Set.csv', encoding='gbk')
test_LogInfo = pd.read_csv('D:\\桌面\\数据\\PPD_LogInfo_2_Test_Set.csv', encoding='gbk')
test_Master = pd.read_csv('D:\\桌面\\数据\\PPD_Master_GBK_2_Test_Set.csv', encoding='gb18030')
test_Userupdat = pd.read_csv('D:\\桌面\\数据\\PPD_Userupdate_Info_2_Test_Set.csv', encoding='gbk')

# 合并数据集（添加样本标识）
train_Master['sample_status'] = 'train'
test_Master['sample_status'] = 'test'

df_Master = pd.concat([train_Master, test_Master], axis=0).reset_index(drop=True)
df_LogInfo = pd.concat([train_LogInfo, test_Userupdat], axis=0).reset_index(drop=True)
df_Userupdat = pd.concat([train_Userupdat, test_Userupdat], axis=0).reset_index(drop=True)

# 保存数据（原始保存路径保持不变）
df_Master.to_csv('F:\\数据\\df_Master.csv', encoding='gb18030', index=False)
df_LogInfo.to_csv('F:\\数据\\df_LogInfo.csv', encoding='gb18030', index=False)
df_Userupdat.to_csv('F:\\数据\\df_Userupdat.csv', encoding='gb18030', index=False)


#1.加载训练集和测试集的三个核心数据表
#2.添加样本标识
#3.合并测试集和训练集
#4.输出三个整合数据集